为了了解强化学习的安全威胁(RL)算法,本文研究中毒攻击以操纵\ emph {any}订单 - 最佳学习算法对偶发性RL中有针对性的政策,并研究了两种自然中毒攻击的潜在损害,即,\ emph {Reward}和\ Emph {Action}的操作。我们发现攻击的影响至关重要地取决于奖励是有界还是无限的。在有限的奖励设置中,我们表明只有奖励操纵或只有动作操纵不能保证成功的攻击。但是,通过结合奖励和行动操纵,对手可以操纵任何订单最佳学习算法,以遵循任何有针对性的策略,并使用$ \ tilde {\ theta}(\ sqrt {t})$总攻击成本,这是订单 - 优越,最佳的攻击成本不知道基础MDP。相反,在无限的奖励设置中,我们表明奖励操纵攻击足以使对手成功操纵任何订单最佳学习算法,以使用$ \ tilde {o}(\ sqrt {t})遵循任何有针对性的策略污染。我们的结果揭示了有关中毒攻击无法获得或无法实现的有用见解,并将刺激有关强大RL算法设计的更多作品。
translated by 谷歌翻译
视觉变压器(VIT)最近在一系列计算机视觉任务中占据了主导地位,但训练数据效率低下,局部语义表示能力较低,而没有适当的电感偏差。卷积神经网络(CNNS)固有地捕获了区域感知语义,激发了研究人员将CNN引入VIT的架构中,以为VIT提供理想的诱导偏见。但是,嵌入在VIT中的微型CNN实现的位置是否足够好?在本文中,我们通过深入探讨混合CNNS/VIT的宏观结构如何增强层次VIT的性能。特别是,我们研究了令牌嵌入层,别名卷积嵌入(CE)的作用,并系统地揭示了CE如何在VIT中注入理想的感应偏置。此外,我们将最佳CE配置应用于最近发布的4个最先进的Vits,从而有效地增强了相应的性能。最后,释放了一个有效的混合CNN/VIT家族,称为CETNET,可以用作通用的视觉骨架。具体而言,CETNET在Imagenet-1K上获得了84.9%的TOP-1准确性(从头开始训练),可可基准上的48.6%的盒子地图和ADE20K上的51.6%MIOU,从而显着提高了相应的最新态度的性能。艺术基线。
translated by 谷歌翻译
生成的开放域对话系统可以从外部知识中受益,但是缺乏外部知识资源和寻找相关知识的困难限制了该技术的发展。为此,我们使用动态服务信息提出了一个知识驱动的对话任务。具体而言,我们使用大量的服务API,可以作为外部知识来源提供高覆盖范围和时空敏感性。对话系统生成查询以请求外部服务以及用户信息,获取相关知识,并基于此知识生成响应。为了实现此方法,我们收集并发布了第一个开放式域中国服务知识对话数据集Dusinc。同时,我们构建了一个基线模型柏拉图 - 线,该模型实现了对话的自动利用。自动评估和人类评估都表明,我们提出的新方法可以显着改善开放域对话的效果,并且与对话预培训模型Plato-2相比,人类评估中的会话级总数提高了59.29%。数据集和基准模型将被开源。
translated by 谷歌翻译
ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译
近年来,基于梯度的Meta-RL(GMRL)方法在发现一个单一任务的有效在线超参数中取得了显着的成功(XU等,2018)或学习多任务转移学习的良好初始化(Finn等人。 ,2017)。尽管有经验的成功,但经常被忽视,通过香草背交计算元梯度是不明定义的。在本文中,我们认为许多现有的MGRL方法采用的随机元梯度估计实际上是偏见的;偏差来自两个来源:1)在组成优化问题的结构中自然的成分偏差和2)由直接自动分化引起的多步粗糙估计的偏差。为了更好地了解元梯度偏差,我们首先执行其研究,以量化每个研究。我们首先为现有的GMRL算法提供统一的推导,然后理论上分析偏差和现有梯度估计方法的方差。了解偏见的基本原则,我们提出了两种缓解解决方案,基于脱离政策校正和多步理估计技术。已经进行了综合烧蚀研究,结果显示:(1)当与不同估计器/示例大小/步骤和学习率相结合时,它们的存在以及它们如何影响元梯度估计。 (2)这些缓解方法对Meta梯度估计的有效性,从而最终回报率两种实用的Meta-RL算法:Lola-Dice和Meta-梯度加固学习。
translated by 谷歌翻译
离线强化学习利用静态数据集来学习最佳策略,无需访问环境。由于代理商在线交互的展示和培训期间的样本数量,这种技术对于多代理学习任务是可取的。然而,在多代理强化学习(Marl)中,从未研究过在线微调的离线预训练的范式从未研究过,可以使用离线MARL研究的数据集或基准。在本文中,我们试图回答违规在Marl中的离线培训是否能够学习一般的政策表现,这些问题可以帮助提高多个下游任务的性能。我们首先引入基于Starcraftia环境的不同质量水平的第一个离线Marl数据集,然后提出了用于有效的离线学习的多代理决策变压器(MADT)的新颖体系结构。 MADT利用变换器的时间表示的建模能力,并将其与离线和在线MARL任务集成。 Madt的一个至关重要的好处是,它学会了可以在不同任务场景下不同类型的代理之间转移的可稳定性政策。当在脱机目的Datline数据上进行评估时,Madt展示了比最先进的离线RL基线的性能卓越。当应用于在线任务时,预先训练的MADT显着提高了样品效率,即使在零射击案件中也享有强大的性能。为了我们的最佳知识,这是第一个研究并展示了在Marl中的样本效率和最常性增强方面的离线预训练模型的有效性。
translated by 谷歌翻译
我们通过纳入通用依赖性(UD)的句法特征来瞄准直接零射击设置中的跨语言机器阅读理解(MRC)的任务,以及我们使用的关键功能是每个句子中的语法关系。虽然以前的工作已经证明了有效的语法引导MRC模型,但我们建议采用句子际句法关系,除了基本的句子关系外,还可以进一步利用MRC任务的多句子输入中的句法依赖性。在我们的方法中,我们构建了句子间依赖图(ISDG)连接依赖树以形成横跨句子的全局句法关系。然后,我们提出了编码全局依赖关系图的ISDG编码器,通过明确地通过一个跳和多跳依赖性路径来解决句子间关系。三个多语言MRC数据集(XQUAD,MLQA,Tydiqa-Goldp)的实验表明,我们仅对英语培训的编码器能够在涵盖8种语言的所有14个测试集中提高零射性能,最高可达3.8 F1 / 5.2 EM平均改善,以及某些语言的5.2 F1 / 11.2 em。进一步的分析表明,改进可以归因于跨语言上一致的句法路径上的注意力。
translated by 谷歌翻译
主导的行动是自然的(也许是最简单的)多代理概括的子最优动作,如标准单代理决策中的那样。因此类似于标准强盗学习,多代理系统中的基本学习问题是如果他们只能观察到他们播放动作的回报的嘈杂的强盗反馈,那么代理商可以学会有效地消除所有主导的动作。令人惊讶的是,尽管有一个看似简单的任务,我们展示了一个相当负面的结果;也就是说,标准没有遗憾的算法 - 包括整个双平均算法的家庭 - 可呈指数级地取消逐渐消除所有主导的行动。此外,具有较强的交换后悔的算法也遭受了类似的指数低效率。为了克服这些障碍,我们开发了一种新的算法,调整EXP3,历史奖励减少(exp3-DH); Exp3-DH逐渐忘记仔细量身定制的速率。我们证明,当所有代理运行Exp3-DH(A.K.A.,在多代理学习中自行发行)时,所有主导的行动都可以在多项多轮内迭代地消除。我们的实验结果进一步证明了Exp3-DH的效率,即使是那些专门用于在游戏中学习的最先进的强盗算法,也无法有效地消除所有主导的行动。
translated by 谷歌翻译
我们研究对线性随机匪徒的对抗攻击:通过操纵奖励,对手旨在控制匪徒的行为。也许令人惊讶的是,我们首先表明某些攻击目标永远无法实现。这与无上下文的随机匪徒形成了鲜明的对比,并且本质上是由于线性随机陆上的臂之间的相关性。在这一发现的激励下,本文研究了$ k $武装的线性匪徒环境的攻击性。我们首先根据武器上下文向量的几何形状提供了攻击性的完全必要性和充分性表征。然后,我们提出了针对Linucb和鲁棒相消除的两阶段攻击方法。该方法首先断言给定环境是否可攻击;而且,如果是的话,它会付出巨大的奖励,以强迫算法仅使用sublinear成本来拉动目标臂线性时间。数值实验进一步验证了拟议攻击方法的有效性和成本效益。
translated by 谷歌翻译
大多数算法研究到目前为止,多智能经纪信息设计的研究专注于没有代理商外部性的限制情况;一些例外调查了真正的战略游戏,如零和游戏和二价格拍卖,但只关注最佳的公共信令。本文启动了\ emph {public}和\ emph {privy}信号传导的算法信息设计,其中of基本的外部性,即单例拥塞游戏,在今天的数字经济中的应用范围广,机器调度,路由,对于公共和私人信令等,我们表明,当资源数量是常数时,可以有效地计算最佳信息设计。为了我们的知识,这是一系列高效的\ EMPH {精确}算法,用于在简明地代表的许多玩家游戏中的信息设计。我们的结果符合新颖的技术,如开发某些“减少形式”,以便在公共信令中紧凑地表征均衡或代表私人信令中的球员边际信仰。当有许多资源时,我们会显示计算难扰性结果。为了克服多个均衡问题,这里我们介绍了均衡 - \ EMPH {忽视}硬度的新概念,这条规定了计算良好信令方案的任何可能性,而不管均衡选择规则如何。
translated by 谷歌翻译